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上 节 课 ， 我 们 主要 介绍 了 根据 不 同 的 设 定 ， 机 器 学 习 可 以 分 为 不 同 的 类 型 。 其 中 , 监 
督 式 学 习 中 的 二 元 分 类 和 回归 分 析 是 最 常见 的 也 是 最 重要 的 机 器 学 习 问题 。 本 节 课 ， 
我 们 将 介绍 机 器 学 习 的 可 行 性 ， 讨 论 问 题 是 否 可 以 使 用 机 器 学 习 来 解决 。 


一 、Learning is Impossible 


首先 ， 考 虑 这 样 一 个 例子 ， 如 下 图 所 示 ， 有 3 个 label 为 -1 的 九宫 格 和 3 个 label 为 +1 的 九 
宫 格 。 根 据 这 6 个 样本 ， 提 取 相 应 label 下 的 特征 ， 预 测 右边 九宫 格 是 属于 -1 还 是 +1? 
结果 是 ， 如 果 依 据 对 称 性 ， 我 们 会 把 它 归 为 +1; 如 果 依 据 九 宫 格 左上 角 是 否 是 黑色 ， 
我 们 会 把 它 归 为 -1。 除 此 之 外 ， 还 有 根据 其 它 不 同 特征 进行 分 类 ， 得 到 不 同 结果 的 情 
况 。 而 且 ， 这 些 分 类 结果 貌似 都 是 正确 合理 的 ， 因 为 对 于 6 个 训练 样本 来 说 ,我 们 选择 
的 模型 都 有 很 好 的 分 类 效果 。 
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再 来 看 一 个 比较 数学 化 的 二 分 类 例子 ， 输 入 特征 x 是 二 进 制 的 、 三 维 的 ， 对 应 有 8 种 输 
入 ， 其 中 训练 样本 D 有 5 个 。 那 么 ， 根 据 训 练 样 本 对 应 的 输出 y， 假 设 有 8 个 
hypothesis， 这 8 个 hypothesis 在 D 上 ， 对 5 个 训练 样本 的 分 类 效果 效果 都 完全 正确 。 但 


是 在 另外 3 个 测试 数据 上 ， 不 同 的 hypothesis 表 现 有 好 有 坏 。 在 已 知 数据 D 上 ,，9 之 f 
;但 是 在 D 以 外 的 未 知 数据 上 ，g  j 不 一 定 成 立 。 而 机 器 学 习 目 的 ， 恰 恰 是 希望 我 
们 选择 的 模型 能 在 未 知 数据 上 的 预测 与 真实 结果 是 一 致 的 ， 而 不 是 在 已 知 的 数据 集 D 
上 寻求 最 佳 效果 。 
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这 个 例子 告诉 我 们 ， 我 们 想 要 在 D 以 外 的 数据 中 更 接近 目标 函数 似乎 是 做 不 到 的 ， 只 
能 保证 对 D 有 很 好 的 分 类 结果 。 机 器 学 习 的 这 种 特性 被 称 为 没有 免费 午餐 (No Free 
Lunch) 定理 。NFL 定 理 表 明 没 有 一 个 学 习 算 法 可 以 在 任何 领域 总 是 产生 最 准确 的 学 
习 器 。 不 管 采 用 何 种 学 习 算法 ， 至 少 存 在 一 个 目标 浮 数 ， 能 够 使 得 随机 猜测 算法 是 更 
好 的 算法 。 平 常 所 说 的 一 个 学 习 算 法 比 另 一 个 算法 更 “优越 "'， 效 果 更 好 ， 只 是 针对 特 
定 的 问题 ， 特 定 的 先 验 信息 ， 数 据 的 分 布 ， 训 练 样本 的 数目 ， 代 价 或 奖励 函数 等 。 从 
这 个 例子 来 看 ，NFL 说 明了 无 法 保证 一 个 机 器 学 习 算法 在 D 以 外 的 数据 集 上 一 定 能 分 
类 或 预测 正确 ， 除 非 加 上 一 些 假设 条 件 ， 我 们 以 后 会 介绍 。 


二 、Probability to the Rescue 

从 上 一 节 得 出 的 结论 是 : 在 训练 集 D 以 外 的 样本 上 ， 机 器 学 习 的 模型 是 很 难 ， 似 乎 做 
不 到 正确 预测 或 分 类 的 。 那 是 否 有 一 些 工具 或 者 方法 能 够 对 未 知 的 目标 遂 数 做 一 些 推 
论 ， 让 我 们 的 机 器 学 习 模 型 能 够 变 得 有 用 呢 ? 

如 果 有 一 个 装 有 很 多 (数量 很 大 数 不 过 来 ) 栖 色 球 和 绿色 球 的 罐子 ， 我 们 能 不 能 推断 
检 色 球 的 比例 u? 统计 学 上 的 做 法 是 ， 从 负 子 中 随机 取出 N 个 球 ， 作 为 样本 ,计算 这 N 
个 球 中 橙色 球 的 比例 v， 那 么 就 估计 出 罐子 中 橙色 球 的 比例 约 为 v。 
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assume 
orange probability = 1, 

green probability = 1 — y, 

with y unknown 


N marbles sampled independently, with 


orange fraction = v, 
green fraction = 1— wv, 


now v known 


这 种 随机 抽取 的 做 法 能 否 说 明 色 子 里 榜 色 球 的 比例 一 定 是 v 呢 ? 管 案 是 否定 的 。 但 是 从 
概率 的 角度 来 说 ， 样 本 中 的 v 很 有 可 能 接近 我 们 未 知 的 。 下 面 从 数学 推导 的 角度 来 看 v 


与 U 是 否 相 近 。 


已 知 u 是 缸 子 里 橙色 球 的 比例 ，v 是 N 个 抽取 的 样本 中 橙色 球 的 比例 。 当 N 足 够 大 的 时 
候 ，v 接 近 于 u。 这 就 是 Hoeffding's inequality: 


Pllv— ul| > « < 2exp(—2eN) 


Hoeffding 不 等 式 说 明 当 NN 很 大 的 时 候 ，v 与 u 相 差 不 会 很 大 ， 它 们 之 间 的 差 值 被 限定 在 € 
之 内 。 我 们 把 结论 v=u 称 为 probably approximately correct(PAC)。 
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三 、Connection to Learning 


下 面 ， 我 们 将 罐子 的 内 容 对 应 到 机 器 学 习 的 概念 上 来 。 机 器 学 习 中 hypothesis 与 目标 
函数 相等 的 可 能 性 ， 类 比 于 钢 子 中 楼 色 球 的 概率 问题 ; 负 子 里 的 一 颗 颗 弹 珠 类 比 于 机 
器 学 习 样 本 空间 的 x; 橙色 的 弹 珠 类 比 于 h(x) 与 f 不 相等 ; 绿色 的 弹 珠 类 比 于 h(x) 与 相 
等 ; 从 罐子 中 抽取 的 N 个 球 类 比 于 机 器 学 习 的 训练 样本 D， 且 这 两 种 抽样 的 样本 与 总 体 
样本 之 间 都 是 独立 同 分 布 的 。 所 以 呢 ， 如 果 样 本 N 够 大 ， 且 是 独立 同 分 布 的 ， 那 么 ， 
从 样本 中 h(x) 才 f(z) 的 概率 就 能 推导 在 抽样 样本 外 的 所 有 样本 中 h(x) 关 f(z) 的 概 
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映射 中 最 关键 的 点 是 讲 抽样 中 楼 球 的 概率 理解 为 样本 数据 集 D 上 h(x) 错 误 的 概率 ， 以 此 
推算 出 在 所 有 数据 上 h(x) 错 误 的 概率 ， 这 也 是 机 器 学 习 能 够 工作 的 本 质 ， 即 我 们 为 喻 
在 采样 数据 上 得 到 了 一 个 假设 ,就 可 以 推 到 全 局 呢 ?” 因 为 两 者 的 错误 率 是 PAC 的 ， 只 
要 我 们 保证 前 者 小 ， 后 者 也 就 小 了 。 
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这 里 我 们 引入 两 个 值 Bin, (hh) 和 ovi (hh)。Ein (hh) 表 示 在 抽样 样本 中 ，h(x) 与 yi 不 相 
等 的 概率 ;ow (及) 表示 实际 所 有 样本 中 ，h(x) 与 f(x) 不 相等 的 概率 是 多 少 。 


unknown Eou(h) = Es [h(x) # f(x)] 


N 
by known Ein(h) = > 【hn(xn) # yn].- 


同样 ， 它 的 Hoeffding's inequality 可 以 表示 为 : 
Pl|Ein(h) — Eoui(h)| > el < 2exp(—2eN) 


该 不 等 式 表明 ， Ein (h) = Eout (及) 也 是 PAC 的 。 如 果 忆 mv (hh) 和 bout (h), Ein, (h) 
很 小 ， 那 么 就 能 推断 出 Bowi (hh) 很 小 ， 也 就 是 说 在 该 数据 分 布 P 下 ，h 与 休 FE 常 接近 ， 机 
器 学 习 的 模型 比较 准确 。 


一 般 地 ，h 如 果 是 固定 的 ，N 很 大 的 时 人 息 ，E;, (hh) 心 Bowt (hh)， 但 是 并 不 意味 着 

9 污 f。 因 为 h 是 固定 的 ， 不 能 保证 Bin, (及 ) 足 够 小 ， 即 使 Bin (h) 全 Bout(h)， 也 可 
能 使 Bowt (hh) 偏 大 。 所 以 ， 一 般 会 通过 演算 法 A， 选 择 最 好 的 nh， 使 思 ; (hh) 足 够 小 ， 从 
而 保证 owt (h) 很 小 。 固 定 的 n,， 使 用 新 数据 进行 测试 ， 验 证 其 错误 率 是 多 少 


个 人 E2 一 。 
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四 、Connection to Real Learning 
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Ein(h:) En(hz) Ein(hm) 


假设 现在 有 很 多 罐子 M 个 ( 即 有 M 个 hypothesis) ， 如 果 其 中 肝 个 罐子 抽样 的 球 全 是 绿 
色 ， 那 是 不 是 应 该 选择 这 个 罐子 呢 ” 我 们 先 来 看 这 样 一 个 例子 : 150 个 人 抛 硬 币 ， 那 
么 其 中 至 少 有 一 个 人 连续 5 次 硬币 都 是 正面 朝 上 的 概率 是 
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可 见 这 个 概率 是 很 大 的 ， 但 是 能 否 说 明 5 次 正面 朝 上 的 这 个 硬币 具有 代表 性 呢 ? 答案 是 
否定 的 ! 并 不 能 说 明 该 硬币 单 次 正面 朝 上 的 概率 很 大 ， 其 实 都 是 0.5。 一 样 的 道理 ， 抽 
到 全 是 绿色 求 的 时 候 也 不 能 一 定 说明 那 个 镀 子 就 全 是 绿色 球 。 当 镀 子 数目 很 多 或 者 抛 
硬币 的 人 数 很 多 的 时 候 ， 可 能 引发 Bad Sample，Bad Sample 就 是 Bi;y, 和 ow 差别 很 
大 ， 即 选择 过 多 带 来 的 负面 影响 ， 选 择 过 多 会 恶化 不 好 的 情形 。 


根据 许多 次 抽样 的 到 的 不 同 的 数据 集 D，Hoeffding's inequality 保 证 了 大 多 数 的 D 都 是 
比较 好 的 情形 ( 即 对 于 某 个 h， 保 证 Biy, 污 Bowt) ， 但 是 也 有 可 能 出 现 Bad Data， 即 
Bin 和 Bowt 差 别 很 大 的 数据 集 D， 这 是 小 概率 事件 。 
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也 就 是 说 ,不 同 的 数据 集 D;, ， 对 于 不 同 的 hypothesis， 有 可 能 成 为 Bad Data。 只 

岂 ) 在 某 个 hypothesis 上 是 Bad Data， 那 么 忆 , 就 是 Bad Data。 只 有 当 刀 ,在 所 有 的 
hypothesis 上 都 是 好 的 数据 ， 才 说 明 忆 "不 是 Bad Data， 可 以 自由 选择 演算 法 A 进 行 建 
模 。 那 么 ， 根 据 Hoeffding's inequality，Bad Data 的 上 界 可 以 表示 为 连 级 (union 
bound) 的 形式 : 


Pp[BAD D] 

= Pp[BADD for hi or BAD Dforh>or ... or BAD D for hu] 

< Pp[BADD for hi]+ Pp[BAD D for hz] ++...+ Pp[BAD D for hu] 
(union bound) 


< 2exp (-2eN) 十 2exp (-2eN) 十 ... 十 2exp (-2eN) 
= 2Mexp (-2eN) 


其 中 ，M 是 hypothesis 的 个 数 ，N 是 样本 D 的 数量 ，e 是 参数 。 该 union bound 表 明 ， 当 
M 有 限 ， 且 N 足 够 大 的 时 候 ，Bad Data 出 现 的 概率 就 更 低 了 ， 即 能 保证 D 对 于 所 有 的 h 
都 有 Bis, 污 Bowt， 满 足 PAC， 演 算法 A 的 选择 不 受 限制 。 那 么 满足 这 种 union bound 
的 情况 ， 我 们 就 可 以 和 之 前 一 样 ， 选 取 一 个 合理 的 演算 法 (PLA/pocket) ， 选 择 使 
五 im 最 小 的 岂 作为 矩 g， 一 般 能 够 保证 9 污 f， 即 有 不 错 的 泛 化 能 力 。 

所 以 ， 如 果 hypothesis 的 个 数 M 是 有 限 的 ，N 足 够 大 ， 那 么 通过 演算 法 A 任 意 选 择 一 个 


和 矩 g， 都 有 叱 im 之 owt 成立; 同时 ， 如 果 找 到 一 个 矩 g， 使 尼 n” 污 0，PAC 就 能 保证 
out 六 0。 至此， 就 证 明了 机 器 学 习 是 可 行 的 。 
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H 
M = co? (like perceptrons) 
(Sel of cancoate Dr 一 See you in the next lectures | 


但 是 ， 如 上 面 的 学 习 流 程 图 右 下 角 所 示 ， 如 果 M 是 无 数 个 ， 例 如 之 前 介绍 的 PLA 直 线 
有 无 数 条 ， 是 否 这 些 推论 就 不 成 立 了 呢 ” 是 否 机 器 就 不 能 进行 学 习 呢 ”这 些 内 容 和 问 
题 , 我们 下 节 课 再 介绍 。 


五 、 总 结 


本 节 课 主要 介绍 了 机 器 学 习 的 可 行 性 。 首 先 引 入 NFL 定 理 ， 说 明 机 器 学 习 无 法 找到 一 
个 和 矩 g 能 够 完全 和 目标 函数 人 一样。 接着 介绍 了 可 以 采用 一 些 统计 上 的 假设 ， 例 如 
Hoeffding 不 等 式 ， 建 立 in, 和 owt 的 联系 ， 证 明 对 于 某 个 h， 当 NN 足够 大 的 时 人 息 ，Ei, 
和 owt 是 PAC 的 。 最后， 对 于 h 个 数 很 多 的 情况 ， 只 要 有 h 个 数 M 是 有 限 的 ， 且 N 足 够 
大 ， 就 能 保证 Bin, 污 Bowt， 证 明 机 器 学 习 是 可 行 的 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基石 》 课 程 。 


